Lagrange 对偶是优化损失函数中的重要方法, 在很多时候它将原始问题转换为等价的对偶问题. 对偶后的问题可能有凸性 (容易找到全局最优解)、降维、简化等优点.
1 原始问题
设 是 上的连续可微函数. 一般的最优化问题写为
定义广义 Lagrange 函数 (generalized Lagrange function):
这里 , 是 Lagrange 乘子, . 定义
(用 表示原始问题)
极小化问题 与 (1.1) 等价. 将它称为广义 Lagrange 函数的 极小极大问题.
给定 , 若它违反原始问题 (1.1) 的约束条件, 也即存在 使得 或存在 使得 , 则
而如果 符合约束条件, 则 因此 只有 和 两种可能, 从而 (1.3), (1.1) 等价.
2 对偶问题
定义
定义原始问题的 对偶问题 为
(称为极大极小问题), 而对偶问题的值为
下面探讨原始问题与对偶问题的关系.
若两问题都有最优值, 则
显然 从而 . 由于两问题都有最优值, 也即 的最值存在, 而两个 分别由 和 决定, 互不影响, 因此 这样就完成了证明.
如果上述定理的 , 且两问题都有一组可行解 , 则这是两个问题共同的最优解.
如果 是凸函数, 是仿射函数, 的约束严格可行(), 则存在原始问题的解 和对偶问题的解 , 且
这里的条件被称为Slater 条件.
条件同定理 2. 则 分别是两个问题解的充分必要条件是 对偶互补条件
对偶互补条件告诉我们如果 , 则 .
解如下问题: 定义 Lagrange 函数 则 KKT 条件为 解得
- 若 , 则 , 极小值为 ;
- 若 , 同上;
- 若 , 则 , 极小值为 .